Recently, unsupervised domain adaptation in satellite pose estimation has gained increasing attention, aiming at alleviating the annotation cost for training deep models. To this end, we propose a self-training framework based on the domain-agnostic geometrical constraints. Specifically, we train a neural network to predict the 2D keypoints of a satellite and then use PnP to estimate the pose. The poses of target samples are regarded as latent variables to formulate the task as a minimization problem. Furthermore, we leverage fine-grained segmentation to tackle the information loss issue caused by abstracting the satellite as sparse keypoints. Finally, we iteratively solve the minimization problem in two steps: pseudo-label generation and network training. Experimental results show that our method adapts well to the target domain. Moreover, our method won the 1st place on the sunlamp task of the second international Satellite Pose Estimation Competition.
translated by 谷歌翻译
基于非线性吸引力 - 抑制力的方法(包括T-SNE,UMAP,FORCEATLAS2,grounvis等)主导了维度降低的现代方法。本文的目的是证明所有此类方法,通过设计,都带有一个沿途自动计算的附加功能,即与这些力相关的向量场。我们展示了该向量领域如何提供其他高质量信息,并根据莫尔斯理论的思想提出了一般的完善策略。这些想法的效率是使用T-SNE在合成和现实生活数据集上专门说明的。
translated by 谷歌翻译
卫星摄像机可以为大型区域提供连续观察,这对于许多遥感应用很重要。然而,由于对象的外观信息不足和缺乏高质量数据集,在卫星视频中实现移动对象检测和跟踪仍然具有挑战性。在本文中,我们首先构建一个具有丰富注释的大型卫星视频数据集,用于移动对象检测和跟踪的任务。该数据集由Jilin-1卫星星座收集,并由47个高质量视频组成,对象检测有1,646,038兴趣的情况和用于对象跟踪的3,711个轨迹。然后,我们引入运动建模基线,以提高检测速率并基于累积多帧差异和鲁棒矩阵完成来减少误报。最后,我们建立了第一个用于在卫星视频中移动对象检测和跟踪的公共基准,并广泛地评估在我们数据集上几种代表方法的性能。还提供了综合实验分析和富有魅力的结论。数据集可在https://github.com/qingyonghu/viso提供。
translated by 谷歌翻译
Human reading comprehension often requires reasoning of event semantic relations in narratives, represented by Event-centric Question-Answering (QA). To address event-centric QA, we propose a novel QA model with contrastive learning and invertible event transformation, call TranCLR. Our proposed model utilizes an invertible transformation matrix to project semantic vectors of events into a common event embedding space, trained with contrastive learning, and thus naturally inject event semantic knowledge into mainstream QA pipelines. The transformation matrix is fine-tuned with the annotated event relation types between events that occurred in questions and those in answers, using event-aware question vectors. Experimental results on the Event Semantic Relation Reasoning (ESTER) dataset show significant improvements in both generative and extractive settings compared to the existing strong baselines, achieving over 8.4% gain in the token-level F1 score and 3.0% gain in Exact Match (EM) score under the multi-answer setting. Qualitative analysis reveals the high quality of the generated answers by TranCLR, demonstrating the feasibility of injecting event knowledge into QA model learning. Our code and models can be found at https://github.com/LuJunru/TranCLR.
translated by 谷歌翻译
空间红外的小型船舶检测旨在将小型船只与轨道轨道捕获的图像分开。由于图像覆盖面积极大(例如,数千平方公里),这些图像中的候选目标比空中基于天线和陆基成像设备观察到的目标要小得多,二聚体,更可变。现有的简短成像基于距离的红外数据集和目标检测方法不能很好地用于空间监视任务。为了解决这些问题,我们开发了一个空间红外的小型船舶检测数据集(即Nudt-Sirst-Sea),该数据集具有48个空间基红外图像和17598像素级的小型船上注释。每个图像覆盖约10000平方公里的面积,带有10000x10000像素。考虑到这些充满挑战的场景,考虑到这些微小的船只的极端特征(例如,小,昏暗,可变的),我们在本文中提出了多层Transunet(MTU-NET)。具体而言,我们设计了视觉变压器(VIT)卷积神经网络(CNN)混合编码器来提取多层次特征。首先将局部特征图用几个卷积层提取,然后馈入多级特征提取模块(MVTM)以捕获长距离依赖性。我们进一步提出了一种拷贝性衡量量 - 帕斯特(CRRP)数据增强方法,以加速训练阶段,从而有效地减轻了目标和背景之间样本不平衡问题的问题。此外,我们设计了一个焦点损失,以实现目标定位和形状描述。 NUDT-SIRST-SEA数据集的实验结果表明,就检测概率,错误警报率和联合交集的交集而言,我们的MTU-NET优于传统和现有的基于深度学习的SIRST方法。
translated by 谷歌翻译
在基于变压器的模型中通常观察到令牌均匀性,在经过变压器中经过堆叠的多个自我发场层后,不同的令牌共享大量相似信息。在本文中,我们建议使用每个变压器层的输出的奇异值的分布来表征令牌均匀性的现象,并从经验上说明,偏斜的奇异值分布可以减轻“令牌均匀性”问题。基于我们的观察结果,我们定义了奇异值分布的几种理想特性,并提出了一种新的转换函数,以更新奇异值。我们表明,除了减轻令牌均匀性外,转换功能还应保留原始嵌入空间中的当地邻域结构。我们提出的奇异价值变换函数应用于伯特,阿尔伯特,罗伯塔和德文尔特等一系列基于变压器的语言模型,并且在语义文本相似性评估和一系列胶水任务中观察到了改善的性能。我们的源代码可在https://github.com/hanqi-qi/tokenuni.git上找到。
translated by 谷歌翻译
我们介绍了DeepGen,这是一个在网络范围内部署的系统,用于自动为宾果派客户创建赞助的搜索广告(ADS)。我们利用最新的自然语言生成(NLG)模型以抽象的方式从广告商的网页中生成流利的广告,并解决了实际问题,例如事实和推理速度。此外,我们的系统可实时创建自定义的广告,以响应用户的搜索查询,因此根据用户所需的内容突出显示了同一产品的不同方面。为了实现这一目标,我们的系统会提前生成各种较小广告的选择,并在查询时间选择最相关的广告选择,以将其缝合为完整的广告。我们通过培训可控的NLG模型来改善发电多样性,以生成相同网页的多个广告,突出显示不同的销售点。我们的系统设计通过首先运行具有不同目标训练的生成模型的合奏,然后使用多样性采样算法来选择各种各样的生成结果以进行在线选择,从而进一步改善了多样性。实验结果显示了我们提出的系统设计的有效性。我们的系统目前已在生产中部署,为Bing提供的全球广告提供$ {\ sim} 4 \%$。
translated by 谷歌翻译
对话研究的最终目标是开发可以在交互式设置中有效使用的系统。为此,我们在第9对话系统技术挑战中介绍了对话框的交互式评估。该曲目由两个子任务组成。第一个子任务涉及建立知识接地的响应生成模型。第二个子任务旨在通过与真实用户的交互式设置进行评估,旨在将对话模型扩展到静态数据集之外。我们的曲目挑战参与者开发强大的响应生成模型,并探索将它们扩展到与真实用户的来回互动的策略。从静态语料库到交互式评估的发展引入了独特的挑战,并促进了对开放域对话系统的更全面评估。本文概述了曲目,包括方法和结果。此外,它提供了有关如何最佳评估开放域对话框模型的见解
translated by 谷歌翻译
在社交媒体上的工作谣言验证利用了帖子,传播和所涉及的用户的信号。基于Wikipedia的信息或值得信赖的新闻文章而无需考虑社交媒体环境,其他工作目标是识别和核实事实检查的主张。但是,缺乏将社交媒体的信息与更广泛网络的外部证据相结合的工作。为了促进这个方向的研究,我们发布了一个新颖的数据集Phemeplus,Phemeplus是Pheme基准的扩展,该数据集包含社交媒体对话以及每个谣言的相关外部证据。我们证明了将这种证据纳入改进谣言验证模型的有效性。此外,作为证据收集的一部分,我们评估了各种查询公式的方法,以识别最有效的方法。
translated by 谷歌翻译
放射学报告产生(RRG)旨在用类似人类的语言描述自动放射学图像,并有可能支持放射科医生的工作,从而减轻手动报告的负担。先前的方法通常采用编码器架构,并专注于单模式特征学习,而很少的研究探索了跨模式特征交互。在这里,我们提出了一个跨模式原型驱动网络(XPRONET),以促进跨模式模式学习并利用它以改善放射学报告生成的任务。这是通过三个精心设计,完全可区分和互补的模块来实现的:共享的跨模式原型矩阵来记录跨模式原型;一个跨模式原型网络,可学习跨模式原型,并将交叉模式信息嵌入视觉和文本特征中;以及改进的多标签对比度损失,以实现和增强多标签原型学习。 Xpronet在IU-XRAR和MIMIC-CXR基准方面取得了重大改进,其性能超过了最新的最新方法,从IU-XRAY上的差距很大,并且在Mimic-CXR上的性能可比性。
translated by 谷歌翻译